exploration-exploitation problem
最適解が分かっている場面ではその最適解(行動)を選択することが報酬の最大化につながる(exploitation)が、学習途中では何が最適な行動かわからないため色々な行動を試す(exploration)必要がある。では、どこまでが学習途中で、どこから学習が完了したと言えるのだろうか?このバランスの難しさが問題となる。
Naa_tsure.icon生物の脳でランダムに行動を選択するというのは、どのようなメカニズムで起こるのか?
チャネルのランダム性は平均化されて結局あまりランダム性を持てない?